dapo

字节跳动与清华：DAPO系统提升AI推理能力

字节跳动与清华：DAPO系统提升AI推理能力

这项由ByteDance Seed、清华大学智能产业研究院、香港大学以及清华AIR-ByteDance联合实验室的研究团队开发的突破性成果发表于2025年3月，论文全称为《DAPO: An Open-Source LLM Reinforcement Learn

推理清华 ai推理 dapo dapo系统 2025-08-04 22:09 2

DAPO: 面向开源大语言模型的解耦裁剪与动态采样策略优化系统

DAPO: 面向开源大语言模型的解耦裁剪与动态采样策略优化系统

在人工智能技术快速迭代发展的背景下，大语言模型（LLMs）已成为自然语言处理与生成领域的核心技术。然而，将这些模型与人类偏好精确对齐并增强其复杂推理能力的挑战，促使研究者开发了一系列复杂的强化学习（RL）技术。DAPO（解耦裁剪和动态采样策略优化，Decoup

模型开源解耦 dapo 解耦裁剪 2025-03-30 10:23 17

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

近日，清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果：DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。这是一个可实现大规模 LLM

开源 rl grpo rl算法 dapo 2025-03-18 23:22 11